专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【ICCV】Product1M_Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining

发布日期:2022-09-09     返回

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining

分享人:戴林辉
研究方向:目标检测
论文题目:Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining
论文作者:Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi Zhang, Hang Xu, Xiaodan Liang
作者单位:中山大学、北京交通大学、阿里巴巴、华为诺亚方舟实验室
论文摘要:如今,客户对电子商务的需求更加多样化,这给产品检索行业带来了更多的复杂性。 以前的方法要么受制于单模态输入,要么执行受监督的图像级产品检索,因此无法适应存在大量弱注释多模态数据的现实场景。 在本文中,我们研究了一种更现实的设置,旨在在细粒度产品类别中执行弱监督的多模态实例级产品检索。 为了促进对这一具有挑战性任务的研究,我们提出了 Product1M数据集,它是用于真实世界实例级检索的最大的多模态化妆品数据集之一。 值得注意的是,Product1M 包含超过 100 万个图像标题对,由两种样本类型组成,即单一产品样本和多产品样本,其中涵盖了各种化妆品品牌。 除了巨大的多样性之外,Product1M 还具有几个吸引人的特征,包括精细的类别、复杂的组合和很好地模仿现实世界场景的模糊对应。 此外,我们提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,例如级别产品检索 (CAPTURE),该模型擅长通过混合流变换器以自我监督的方式捕获多模态输入之间的潜在协同作用 . CAPTURE 通过掩码多模态学习以及跨模态对比预训练生成判别性实例特征,并且优于几个 SOTA 跨模态基线。 广泛的消融研究很好地证明了我们模型的有效性和泛化能力。 数据集和代码可在 https://github.com/zhanxlin/Product1M 获得。
原文链接

点击此处